工具变量本身是一个计量经济学的概念,它的出现是为了克服普通最小二乘法中的内生性问题。在这里,内生性是指回归模型中的解释变量(X)和随机扰动项(δ)相关。
如果内生性存在,便会大大降低回归模型的估计效力。
举个简单的例子,某研究组想了解非洲村落里的儿童补充维生素A和其死亡情况的关联,如果仅仅利用维生素A的服用情况和死亡情况去判断两者的关联,那极有可能会产生很大的偏倚,这是因为维生素A的服用情况和很多潜在因素相关,比如家庭的经济困难程度、家庭成员以及实验儿童的依从性,而这些潜在的因素也可能对儿童的身体健康有很大的影响。因此,在研究起始设计中,研究者便利用工具变量来解决这个问题。
在这里,工具变量Z是指服用维生素A这个任务,类似于随机抽签。这样的话工具变量Z便只和X服用维生素A这个行为相关,与除X以外的混杂因素不相关。这样便解决了用最小二乘法进行回归分析时的变量内生性问题。当然,如果需要借用工具变量Z来推导服用维生素A和死亡率的关系,我们需要用到两阶段最小二乘法(two stage least squares, TSLS):
第一步:建立自变量X和工具变量的回归模型
在这一步中,需要验证,Cov(Z, ε)= 0,也即工具变量和混杂因素无关。另外还需要考虑上述方程的决定系数或者说是F统计量,以及判断Z和X的关联强度。通常情况下,决定系数或者F统计量越大,说明Z和X的关联程度越大。
第二步:将第一步中拟合的X的估计量带入如下方程:
其中β便是X对Y的纯净效应量。
当然,关于工具变量的使用还有很多细节的内容,在这里就不赘述了,有兴趣的小伙伴可以查阅相关文献。下一次我将详细介绍这个维生素A的研究结果的数据分析!
参考文献:
1. Lousdal ML: An introduction to instrumental variableassumptions, validation and estimation. EmergThemes Epidemiol 2018, 15:7.